草庐IT

LLM 评估

全部标签

大型语言模型(LLM)技术精要,不看亏了

哈喽,大家好。今天分享一篇知乎高赞文章,作者是张俊林老师。图片读完收获很多,能帮大家更好地理解、学习大模型。原文有2.8w字,我提炼了核心要点,阅读需要10min。ChatGPT的出现给很多人带来了惊喜和醒悟。有人惊喜地发现大型语言模型(LLM)的效果如此出色,而有人则意识到我们对LLM的认知和发展理念距离世界先进水平还有很大差距。我是既惊喜又醒悟的一员,也是典型的中国人,善于自我反思。因此,我开始反思,并将这篇文章作为反思的结果。我认为,OpenAI在LLM的理念和相关技术方面领先于国外的Google和DeepMind大约半年到一年的时间,领先国内大约两年左右。在LLM这个问题上,梯队很明显

宇宙尽头是「计算」!AI大佬Wolfram最新演讲:LLM自主在计算空间探索,奇点降临就是现在

如何以计算方式,思考人工智能、宇宙和一切?近日,著名的英国科学家StephenWolfram在TED18分钟的演讲中,分享了自己对这个问题的看法。图片在他看来,宇宙是在一种计算模型下运行的,空间和物质都是由遵守简单计算规则的离散元素组成的。他还提出了ruliad的概念,即所有可以想象的计算过程的复杂极限。宇宙尽头,是「计算」?人类的语言、数学、逻辑学,都是用来表达和理解世界的方式。而在我们这个时代,「计算」成为了一种新的、也更强大的方法。近50年来,我有幸基于「计算」的理念建造了一座更高的科学技术塔。今天我想告诉你,这些努力取得了一些什么样的成就。还记得,我上一次TED演讲是在13年前——20

给大模型评分的基准靠谱吗?Anthropic来了次大评估

现阶段,大多数围绕人工智能(AI)对社会影响的讨论可归结为AI系统的某些属性,例如真实性、公平性、滥用的可能性等。但现在面临的问题是,许多研究人员并没有完全意识到建立稳健可靠的模型评估是多么困难。当今许多现有的评估套件在各个方面的表现都很有限。AI初创公司Anthropic近日在其官方网站上贴出了一篇文章《评估AI系统所面临的挑战》。文中写道,他们花了很长的时间来构建对AI系统的评估,从而更好地理解AI系统。文章地址:https://www.anthropic.com/index/evaluating-ai-systems本文主要从以下几个方面展开讨论:多项选择评估(Multiplechoic

分类模型评估:混淆矩阵、准确率、召回率、ROC

1.混淆矩阵在二分类问题中,混淆矩阵被用来度量模型的准确率。因为在二分类问题中单一样本的预测结果只有YesorNo,即:真或者假两种结果,所以全体样本经二分类模型处理后,处理结果不外乎四种情况,每种情况都有一个专门称谓,如果用一个2行2列表格描述,得到的就是“混淆矩阵”,以下是遵循sklearn规范的混淆矩阵布局(本文地址:https://laurence.blog.csdn.net/article/details/129006571,转载请注明出处!): 预测为’假’预测为’真’实际为’假’真阴性/TN(TrueNegative)假阳性/FP(FalsePositive)实际为’真’假阴性/

系统架构设计师 8:系统质量属性与架构评估

软件系统属性包括功能属性和质量属性,软件架构重点关注的是质量属性。为了精确、定量地表达系统的质量属性,通常会采用质量属性场景的方式进行描述。在确定软件系统架构,精确描述质量属性场景后,就需要对系统架构进行评估。软件系统架构评估是在对架构分析、评估的基础上,对架构策略的选取进行决策。一、软件系统质量属性1面向架构评估的质量属性1.性能。  性能是指系统的响应能力。经常用单位时间内所处理事务的数量或系统完成某个事务处理所需的时间来对性能进行定量表示。2.可靠性。  可靠性是软件系统在应用或系统错误面前,在意外或错误使用的情况下维持软件系统的功能特性的基本能力。可靠性通常用平均失效等待时间(MTTF

algorithm - 评估 MongoDB 聚合查询复杂度 : cost of $lookup

我正在评估涉及一些MongoDB聚合查询的算法的计算成本,因此我试图计算出我使用的各种运算符的成本,那么整个查询的成本将只是以下总和所有这些都是级联应用的。我上来就说$project、$match和$unwind的成本是O(n),n是集合中文档的数量,因为我没有任何索引所以我需要扫描所有文件。现在我的问题是:新的$lookup运算符的成本如何?它对两个集合执行左连接,所以我首先猜测它有点计算两个集合的笛卡尔积,因此成本应该类似于O(n*m),其中m是第二个集合的大小。我对吗?MongoDB会做一些更有效率的事情吗?您对这个主题有任何引用吗? 最佳答案

mongodb - 有条件地评估要返回的数组元素

考虑到以下数据,我想在MongoDB的数组字段中返回要从默认文档中选择的ID的结果。我们将该集合称为books。示例采集数据如下所示:[{name:"Book1",refs:[{oid:"object1"},{oid:"object2"},{oid:"object5",default:true}]},{name:"Book2",refs:[{oid:"object3"},{oid:"object5",default:true},{oid:"object7"}]},{name:"Book3",refs:[{oid:"object4"},{oid:"object2"}]},{name:"B

mongodb - 如何在 Mongodb 中的查询评估条件表达式中使用字段?

在Mongodb中,我有一个任务集合,其中包含以下字段以及其他25个字段1.timeToLive-holdsthenumberofminutes2.createdDate-holdstheISODate我需要编写一个查询,它将只返回未过期的任务。我正在尝试以下操作:db.tasks.find({"timeToLive":{$gt:((newDate().getTime()-createdDate)/60000)}},{_id:1,createdDate:1,timeToLive:1})问题是mongo无法将$gt表达式中的createdDate识别为文档中的字段。我收到以下错误:201

【网安AIGC专题10.19】论文6:Java漏洞自动修复+数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会

HowEffectiveAreNeuralNetworksforFixingSecurityVulnerabilities写在最前面摘要贡献发现介绍背景:漏洞修复需求和Java漏洞修复方向动机方法贡献数据集先前的数据集和Java漏洞Benchmark数据集扩展要求数据处理工作最终数据集VJBenchVJBench与Vul4J的比较大语言模型和APR技术大型语言模型CodeX[17]CodeT5[73]CodeGen[55]PLBART[8]InCoder[28]实验:对于带有注释错误行的输入关于LargeLanguageModels的微调四种基于深度学习的自动程序修复(DL-basedAPR)

增强LLM:使用搜索引擎缓解大模型幻觉问题

论文题目:FRESHLLMS:REFRESHINGLARGELANGUAGEMODELSWITHSEARCHENGINEAUGMENTATION论文地址:https://arxiv.org/pdf/2310.03214.pdf论文由Google、UniversityofMassachusettsAmherst、OpenAI联合发布。    大部分大语言模型只会训练一次,不会被频繁的更新,训练用到的知识会慢慢过时,所以它无法适应变化的世界。论文作者提出了动态问答的基准测试,称为FRESHQA,并且提出了一种简单的解决问题的方法,FRESHPROMPT。        FRESHQA收集的问题根据